﻿ METANET4U și ATLAS la sfârșit Ce facem mai departe? Un workshop-cannă iniţiat de colecvul NLP-Group@UAIC-FII Universitatea “Alexandru Ioan Cuza” 8 mare 2013 Un mare MULŢUMESC! • … cu recunoșnţă, profesorilor de la Facultăţile de Litere, Administrarea Afacerilor și Informacă care au acceptat să parcipe la realizarea contribuţiei UAIC de 50% la cheltuielile de realizare (labor costs) • Colegilor din NLP-Group@UAIC-FII care au lucrat la realizarea proiectelor METANET4U ATLAS METANET4U hp://metanet4u eu/ Partneri 1 Faculdade de Ciências da Universidade de Lisboa 2 Instuto Superior Técnico 3 The University of Manchester 4 Universitatea “Alexandru Ioan Cuza” 5 Instutul de Cercetări pentru Inteligenţă Arﬁcială 6 Università ta’ Malta 7 Universitat Politècnica de Catalunya 8 Universitat Pompeu Fabra Scop • Îmbunătăţirea infrastructurii lingvisce europene – contribuţii la crearea unei plaorme digitale pan- Europene – crearea și partajarea de resurse lingvisce și instrumente soware pentru prelucrarea vorbirii și a textelor • Se adresează comunităţii de cercetători și industriei Studiile METANET • METANET: o reţea de excelenţă europeană formată din 60 de centre de cercetare din 34 de ţări • Seria de studii “Limbile Europei în era digitală” – pentru 30 de limbi europene – evaluarea nivelului de dezvoltare a tehnologiei limbajului – adresate jurnalișlor, policienilor, comunităţilor lingvisce și tuturor celor interesaţi de limba română • Limba română în era digitală (The Romanian Language in the Digital Age), hp://www meta-net eu/whitepapers/e-book/ romanian pdf Cadrul actual • Europa: – o structură polică și economică disnctă – diversă dpdv cultural și lingvisc • Comunicarea de zi cu zi între cetăţenii europeni, din economie și polică se confruntă inevitabil cu bariere lingvisce • Internetul: – o colecţie nesfârșită de informaţii accesibilă oricui – dar o mare parte din acest univers rămâne inaccesibil din cauza diversităţii limbilor în care este exprimat • Aprox 1 mld EURO cheltuiţi anual pentru mullingvism (traducerea textelor și interpretarea discursurilor) • Trebuie însă să ﬁe mullingvismul o asel de povară? Tehnologiile limbajului • Tehnologiile moderne ale limbajului și cercetarea lingviscă ne ajută deja în acvităţi zilnice: – când efectuăm căutări pe internet, – când traducem pagini web, – când folosim facilităţile de corectare a ortograﬁei și gramacii oferite de un procesor de texte, – când dăm comenzi vocale aparaturii din mașină sau telefonului mobil, – când primim recomandări în librării online, – când urmăm indicaţiile unei aplicaţii de navigare prin GPS Situaţia pentru limba română • TL disponibile pentru limba engleză nu sunt întotdeauna adaptate și pentru limba română: – Siri pentru iPhone, – traducerile automate stârnesc uneori zâmbete • Cercetări în universităţi și instute de cercetare din România și Republica Moldova – lipsă a connuităţii în ﬁnanţarea cercetării; programele pe termen scurt alternează cu perioade de ﬁnanţare insuﬁcientă sau deloc; – resursele și instrumentele sunt încă limitate în raport cu cele existente pentru limba engleză Prelucrarea vorbirii Traducere automată Analiza de text Resurse pentru text și vorbire Sprijinul acordat TL pentru limba română Situaţia pentru limba română Există domenii în care nu s-a lucrat suﬁcient pentru limba română: – generarea de limbaj – sisteme de gesonare a dialogului – construirea de corpusuri mulmodale – nu există încă un corpus de referinţă, la nivelul celorlalte limbi • P r o c e s a r e a v o r b i r i i e s t e momentan mult mai puţin dezvoltată decât alte domenii ale TL, în ceea ce privește disponibilitatea corpusurilor și instrumentelor Situaţia pentru limba română • Cu câteva excepţii, cum ar ﬁ serviciile web pentru procesări de bază ale limbajului, analiză morfologică, instrumente de întrebare- răspuns și sisteme de traducere automată, sistemele existente pentru limba română nu pot ﬁ accesate fără restricţii • Multe dintre instrumente, resurse și formate de date nu respectă standardele din industrie și nu pot ﬁ integrate în mod eﬁcient • Este necesară standrdizarea formatele datelor și API- urilor Situaţia pentru limba română • O situaţie neclară din punct de vedere juridic restricţionează ulizarea textelor digitale, cum ar ﬁ cele publicate on-line de ziare, pentru cercetări empirice lingvisce și pentru tehnologiile limbajului, de exemplu pentru construirea modelelor stasce de limbă • Împreună cu policienii și factorii de decizie polică, cercetătorii ar trebui să încerce să stabilească legi sau reglementări care să le permită să ulizeze texte puse la dispoziţia publicului pentru acvităţile de cercetare și dezvoltare legate de limbă Cum se obţin resursele? Pasul 1: extragerea experzei umane text text adnotat Exemplu de resursă: treebank Exemplu de adnotare sintaccă Cum se obţin resursele? Pasul 2: sinteza modelelor text Program de set de învățare reguli Un modul Prelucrare independentă de limbă Resurse dependente de limbă Exemplu: un parser sintacc Parser: software independent de limbă set de reguli sintactice pentru limba L Cum se obţin resursele? Pasul 3: evaluarea text Parser sintactic limbă set de reguli pt limba română Echetare morfologică drd Radu Simionescu Detectarea grupurilor nominale drd Radu Simionescu Parsarea sintaccă drd Radu Simionescu Idenﬁcarea automată a rolurilor semance • Cine, ce, unde, când, de ce, cum face o acţiune Grupul NLP vă invită cu drag vineri, 8 mare, la o prezentare a proiectelor Metanet4U și ATLAS, pentru a vă mulţumi pentru suportul acordat • Rezultate (disponibile pe METASHARE): – Resursă adnotată cu roluri semance – Program de adnotare automată a rolurilor dr Diana Trandabăţ Sisteme de p întrebare-răspuns • Întrebare: Când s-a născut Ion Iliescu? • Răspuns: Ion Iliescu s-a născut la 3 Mare 1930 • Nu se dorește găsirea unui document care conţine textul “Când s-a născut Ion Iliescu ” • Rezultate (disponibile pe METASHARE): – Resursă adnotată cu exemple de întrebări, necesare unui sistem de învăţare automată (Română, Engleză, Franceză) Echipă coordonată de Adrian Iene Junichi Tsujii - Microso Research Asia, NaCTeM, University of Manchester Interoperability and Adaptability in Resource-rich LT CoNLL Shared Task Interoperability and Adaptability Dependency Parser Resources In Resource-rich LT Diconaries Ontologies Module Module Module Rule Wring Adaptaon (Annotated) POS Tagger Text Word Breaker Language Families Text Types Domains English French German Japanese Finish Greek ALPE (Automated Linguisc Processing Environment) • Un sistem cadru de procesare a limbajului natural – Determinarea automată a formatului, pului de adnotare şi a limbii unui text – Integrarea unor module de procesare lingviscă într-o ierarhie de formate – Calculul automat al unor lanţuri de procesare plecând de la un document de intrare până la un format de ieşire speciﬁcat • Rezultate (disponibile pe METASHARE): • modul de determinare automată a formatului unui document XML • modul de comparare/conversie automată a unor documente XML • modul de combinare automată a două adnotări XML peste acelaşi text dr Ionuţ Pistol Lanţ de procesare: un sistem de txt okenizer-UAIC construire a arborilor de discurs T tok POS-RACAI • txt: basic text document • tok: xml with marked lexical tokens pos FDGparser-UAIC Splier-UAIC • pos: xml with marked part-of-speech information • FDG: FDG trees for each phrase seg FDG • NP: xml with marked Noun Phrases NPchunker-UAIC • seg: xml with marked clauses RARE-UAIC (segments) • RARE: xml with marked coreference NP chains (output of the RARE anaphora resolution engine) RARE-UAIC • DT: discourse trees of the original RARE texts One ore more trees are produced DP-UAIC DT U-Compare • Instrumente de procesare UAIC Resources 1 - RACAI:Lang Idenﬁer 2 - UOM:Paragraph Breaker:Any 3 - UOM:Sentence Splier:Any 4 -UNIMAN:Genia Sentence Splier: en 5- UNIMAN:OpenNLP sentence detector: en 6 - UNIMAN:NaCTeM sentence breaker:en 7- RACAI: Sentence Splier:ro,en 8 - UNIMAN:Genia Tagger (with tokenizaon): en 9 - UNIMAN:Stepp Tagger (with tokenizaon): en 10 - UNIMAN:Genia Tagger (no tokenizaon): en 11 - UNIMAN:Stepp Tagger (no tokenizaon): en 12 - UNIMAN:OpenNLP tokenizer:en 13 - RACAI:TTL Tokenizer:ro,en 14 - UAIC: TokenizerUAIC: ro, en 15 - UNIMAN: Aperum Morpho Analyser: en,ro 16 - UNIMAN:OpenNLP Tagger:en 17 - RACAI:TTL Tagger:ro,en,fr Key 18 -UAIC: FDG-Parser-UAIC:ro Lang – Language of text 19 - RACAI: TTL Lemmazer: ro,en Txt – Plain text 20- UAIC: Lemmazer-UAIC: ro Para – Paragraph annotaons 21 - UNIMAN:morpha:en Sent - Sentence annotaons 22 - UAIC: Splier-UAIC:ro Tok – Token annotaons 23 – UAIC:NP-Chunker-UAIC:ro POS – Part-of-speech annotaons 24 – RACAI:TTL-Chunker:ro,en Lem – Lemma annotaons Seg – Segment annotaons FDG- FDG parse annotaons NP – Noun phrase annotaons hp://metashare infoiasi ro/ Applied Technology for Language-Aided CMS • Parteneri – Tetracom Interacve Soluons - Bulgaria – Deutsches Forschungszentrum Fuer Kuenstliche Intelligenz GmbH - Germany – Atlans Consulng SA - Greece – Instute for Bulgarian Language - Bulgaria – Instytut Podstaw Informatyki Polskiej Akademii Nauk - Poland – Universitaet Hamburg - Germany – Universitatea Alexandru Ioan Cuza - Romania – Sveučilište u Zadru - Croaa – Instute of Technologies and Development Foundaon - Bulgaria Lanţul de prelucrări textuale din ATLAS Prelucrări Prelucrări Prelucrări de iniţiale subsintactice document rezultatdiscurs Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări de iniţiale subsintactice document rezultatdiscurs Curăţarea Eliminarea Recunoașteea Standardizarea textului formatărilor limbii codurilor Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări de iniţiale subsintactice document rezultatdiscurs Segmentare Segmentare Etichetare Recunoașterea Recunoașterea la fraze la cuvinte la PDV lemelor grupurilor Exemple de prelucrări textuale Prelucrări Prelucrări Prelucrări iniţiale subsintactice document rezultatde discurs Rezoluţia Parsarea Segmentare anaforei discursului Rezumare la clauze Și mai departe? Treebank românesc Îmbunătăţirea parserului sintacc drd Augusto Perez, lect dr Mihaela Colhon (Univ Craiova), drd Radu Simionescu Analiza discursului: generarea arborilor de discurs • Rezultate disponibile: – hp://nlptools infoiasi ro/WebClauseSplierRo/ – hp://nlptools infoiasi ro/WebDiscourseParserRo/ drd Daniel Anechitei Structura discursului și co-referenţialitate • Noi metode de abordare a analizei de discurs • Îmbunătăţirea performanţelor de calitate și eﬁcienţă a parserelor de discurs • Ulizarea relaţiilor de coreferenţialitate în ghidarea parserului drd Elena Mitocariu Idenﬁcarea opiniilor și senmentelor în texte • Deja s-ar putea discuta despre meritele literare ale Hertei Müller, însă acest Nobel al lui Obama va rămâne în istorie ca ﬁind probabil cel mai nemeritat din câte s-au acordat! • Opinii despre oameni polici, companii, produse etc Echipă coordonată de Adrian Iene Supraveghere pe Internet • Extragerea informaţiilor din Internet (ziare, blog-uri, reţele sociale, forumuri) • Procesări lingvisce asupra textelor: idenﬁcarea de entăţi (locaţii, persoane, date calendarisce, produse etc ), de relaţii între entăţi, rezumare Echipă coordonată de Adrian Iene Idenﬁcarea tonalităţii discursului public • Instrumentul DAT (Discourse Analysis Tool) conceput pentru analiza lexico-semancă a discursului public • Iniţial - implementat pentru discursul polic Scopul ﬁind acela de clasiﬁcare a lexiconului polic în context electoral • Rezultate (disponibile pe METASHARE): – Resursă adnotată la clase semance cuprinzând texte publice pe probleme police, economice, jurnalisce – 33 de clase semance aranjate ierarhic: injurii, social (familie, prieteni, oameni), emoţional (poziv: moderat, capvant, spectaculos şi negav: anxietate, furie, supărare), raţional (intuiţie, determinare, nesiguranţă, siguranţă, inhibiţie), percepv (vizual, audiv, tacl), sexual, muncă, realizări, nerealizări, agrement, cămin, ﬁnanciar, religie, naţionalism dr Daniela Gîfu Corpus paralel vorbire-text Segmentarea semnalului acusc cum te cheamă cum te chea mă c u m t e ch e a m ă k u m t e c i̯ a m ă k u m t e c e̯ a m ă 0 Time (s) 0 8366 Prof Andrei Turculeţ, dr Anca Bibiri, drd Laura Pistol, MLC I Andrei Scutelncu eDTLR Aplicaţii • Extragerea automată a informaţiilor lexicale din eDTLR – Reconsuirea morfologiei diacronice a limbii române pe baza citatelor din eDTLR – Analiza stască a lexicului eDTLR drd Mădălin Pătrașcu, drd Radu Simionescu, dr Gabriela Haja eDTLR Aplicaţii • Instrumente şi resurse pentru editarea şi consultarea de dicţionare – Interfaţa de editare de dicţionare – Motor de extragere de ocurenţe şi contexte – Achiziţionare de resurse pentru un Corpus diacronic al limbii române (de la primele texte scrise până în prezent) dr Gabriela Haja, dr Alex Moruz, drd Mădălin Pătrașcu, MLC I Andrei Scutelnicu eDTLR Aplicaţii • CLRE Corpus lexicograﬁc românesc esenţial • 100 de dicţionare din bibliograﬁa DLR aliniate la nivel de intrare şi sens dr Elena Tamba, dr Ana-Veronica Catană Spenchiu, dr Marius-Radu Clim, drd Mădălin Pătraşcu eDTLR Aplicaţii • Lanţuri emologice – Evidenţierea circulaţiei cuvintelor în spaţiul european, pe baza resurselor lexicograﬁce accesibile în format electronic dr Gabriela Haja, MLC I Raluca Moiseanu EUROLAN 1993-2011: 10 ediţii 55 Conferinţele “Resurse și instrumente pentru prelucrarea limbajului natural” ConsILR 2001-2012: 8 ediţii ConsILR-2013 Vă mulţumim și vă invităm… dincolo! 